Negotiation is one of the crucial abilities in human communication, and there has been a resurgent research interest in negotiation dialogue systems recently, which goal is to empower intelligent agents with such ability that can efficiently help humans resolve conflicts or reach beneficial agreements. Although there have been many explorations in negotiation dialogue systems, a systematic review of this task has to date remained notably absent. To this end, we aim to fill this gap by reviewing contemporary studies in the emerging field of negotiation dialogue systems, covering benchmarks, evaluations, and methodologies. Furthermore, we also discuss potential future directions, including multi-modal, multi-party, and cross-cultural negotiation scenarios. Our goal is to provide the community with a systematic overview of negotiation dialogue systems and to inspire future research.
translated by 谷歌翻译
Video-and-language pre-training has shown promising results for learning generalizable representations. Most existing approaches usually model video and text in an implicit manner, without considering explicit structural representations of the multi-modal content. We denote such form of representations as structural knowledge, which express rich semantics of multiple granularities. There are related works that propose object-aware approaches to inject similar knowledge as inputs. However, the existing methods usually fail to effectively utilize such knowledge as regularizations to shape a superior cross-modal representation space. To this end, we propose a Cross-modaL knOwledge-enhanced Pre-training (CLOP) method with Knowledge Regularizations. There are two key designs of ours: 1) a simple yet effective Structural Knowledge Prediction (SKP) task to pull together the latent representations of similar videos; and 2) a novel Knowledge-guided sampling approach for Contrastive Learning (KCL) to push apart cross-modal hard negative samples. We evaluate our method on four text-video retrieval tasks and one multi-choice QA task. The experiments show clear improvements, outperforming prior works by a substantial margin. Besides, we provide ablations and insights of how our methods affect the latent representation space, demonstrating the value of incorporating knowledge regularizations into video-and-language pre-training.
translated by 谷歌翻译
我们研究了一个实用的问题,但尚未探讨问题:从不同飞行高度的角度来看,无人机如何在环境中感知。与始终从地面角度进行感知的自动驾驶不同,由于特定的任务,飞行无人机可能会灵活地改变其飞行高度,这需要能力才能使视点不变感知。为了减少飞行数据注释的努力,我们考虑了一种地面到意见知识蒸馏方法,同时仅使用地面视点的标记数据和飞行视点的未标记数据。为此,我们提出了一个渐进的半监督学习框架,该框架具有四个核心组成部分:一个密集的观点采样策略,将垂直飞行高度的范围分配为一组均匀分布的小部分,在每个高度下,我们采样了从该角度来看的数据;最近的邻居伪标记,以在前一个视点上学习的模型来注入最近的邻居视点的标签; MixView在不同观点之间生成增强图像以减轻观点差异;以及逐渐学习的渐进蒸馏策略,直到达到最大飞行高度为止。我们收集一个合成的数据集和一个现实世界数据集,我们进行了广泛的实验,以表明我们的方法为不同的飞行高度带来了有希望的结果。
translated by 谷歌翻译
为了在许多因素动态影响输出轨迹的复杂随机系统上学习,希望有效利用从以前迭代中收集的历史样本中的信息来加速策略优化。经典的经验重播使代理商可以通过重复使用历史观察来记住。但是,处理所有观察结果的统一重复使用策略均忽略了不同样本的相对重要性。为了克服这一限制,我们提出了一个基于一般差异的经验重播(VRER)框架,该框架可以选择性地重复使用最相关的样本以改善策略梯度估计。这种选择性机制可以自适应地对过去的样品增加重量,这些样本更可能由当前目标分布产生。我们的理论和实证研究表明,提议的VRER可以加速学习最佳政策,并增强最先进的政策优化方法的性能。
translated by 谷歌翻译
在计算摄影中,低光原始denoisising是一项重要且有价值的任务,在计算摄影中,基于成对的真实数据训练的基于学习的方法是主流。但是,有限的数据量和复杂的噪声分布构成了配对真实数据的可学习性瓶颈,这限制了基于学习的方法的降解性能。为了解决这个问题,我们提出了一种可学习性增强策略,以根据噪声建模改革真实数据。我们的策略包括两种有效的技术:射击噪声增强(SNA)和深色阴影校正(DSC)。通过噪声模型解耦,SNA通过增加数据量和DSC来提高数据映射的精度,并通过降低噪声复杂性来降低数据映射的复杂性。公共数据集和真实成像方案的广泛结果共同证明了我们方法的最新性能。
translated by 谷歌翻译
在生物制造4.0的关键需求的驱动下,我们引入了一种概率知识图杂交模型,该模型表征了基于风险和科学的生物处理机制的理解。它可以忠实地捕获重要特性,包括非线性反应,部分观察到的状态和非平稳动力学。考虑到非常有限的实际过程观测值,我们得出了后验分布量化模型估计不确定性。为了避免评估顽固的似然,使用顺序蒙特卡洛(ABC-SMC)的近似贝叶斯计算采样可用于近似后验分布。在高随机和模型不确定性下,匹配输出轨迹在计算上昂贵。因此,我们创建了一个线性高斯动态贝叶斯网络(LG-DBN)基于辅助可能性的ABC-SMC方法。通过与可以捕获关键相互作用和变化的LG-DBN可能性驱动的摘要统计数据,所提出的算法可以加速混合模型推断,支持过程监测并促进机制学习和稳健的控制。
translated by 谷歌翻译
预先接受的语言模型实现了最先进的导致各种自然语言处理(NLP)任务。 GPT-3表明,缩放预先训练的语言模型可以进一步利用它们的巨大潜力。最近提出了一个名为Ernie 3.0的统一框架,以预先培训大型知识增强型号,并培训了具有10亿参数的模型。 Ernie 3.0在各种NLP任务上表现出最先进的模型。为了探讨缩放的表现,我们培养了百卢比的3.0泰坦参数型号,在PaddlePaddle平台上有高达260亿参数的泰坦。此外,我们设计了一种自我监督的对抗性损失和可控语言建模损失,以使ERNIE 3.0 TITAN产生可信和可控的文本。为了减少计算开销和碳排放,我们向Ernie 3.0泰坦提出了一个在线蒸馏框架,教师模型将同时教授学生和培训。埃塞尼3.0泰坦是迄今为止最大的中国密集预训练模型。经验结果表明,Ernie 3.0泰坦在68个NLP数据集中优于最先进的模型。
translated by 谷歌翻译
为了在许多因素动态影响输出轨迹的复杂随机系统上学习,希望有效利用从以前迭代中收集的历史样本中的信息来加速策略优化。经典的经验重播使代理商可以通过重复使用历史观察来记住。但是,处理所有观察结果的统一重复使用策略均忽略了不同样本的相对重要性。为了克服这一限制,我们提出了一个基于一般差异的经验重播(VRER)框架,该框架可以选择性地重复使用最相关的样本以改善策略梯度估计。这种选择性机制可以自适应地对过去的样品增加重量,这些样本更可能由当前目标分布产生。我们的理论和实证研究表明,提议的VRER可以加速学习最佳政策,并增强最先进的政策优化方法的性能。
translated by 谷歌翻译
最近的研究表明,深层神经网络容易受到不同类型的攻击,例如对抗性攻击,数据中毒攻击和后门攻击。其中,后门攻击是最狡猾的攻击,几乎可以在深度学习管道的每个阶段发生。因此,后门攻击吸引了学术界和行业的许多兴趣。但是,大多数现有的后门攻击方法对于某些轻松的预处理(例如常见数据转换)都是可见的或脆弱的。为了解决这些限制,我们提出了一种强大而无形的后门攻击,称为“毒药”。具体而言,我们首先利用图像结构作为目标中毒区域,并用毒药(信息)填充它们以生成触发图案。由于图像结构可以在数据转换期间保持其语义含义,因此这种触发模式对数据转换本质上是强大的。然后,我们利用深度注射网络将这种触发模式嵌入封面图像中,以达到隐身性。与现有流行的后门攻击方法相比,毒药的墨水在隐形和健壮性方面都优于表现。通过广泛的实验,我们证明了毒药不仅是不同数据集和网络体系结构的一般性,而且对于不同的攻击场景也很灵活。此外,它对许多最先进的防御技术也具有非常强烈的抵抗力。
translated by 谷歌翻译
布换人员重新识别(CC-REID)旨在在长时间匹配不同地点的同一个人,例如,超过日子,因此不可避免地满足换衣服的挑战。在本文中,我们专注于处理更具有挑战性的环境下的CC-Reid问题,即,只有一个图像,它可以实现高效和延迟的行人确定实时监控应用。具体而言,我们将步态识别作为辅助任务来驱动图像Reid模型来通过利用个人独特和独立布的步态信息来学习布不可知的表现,我们将此框架命名为Gi-Reid。 Gi-Reid采用两流架构,该架构由图像Reid-Stream和辅助步态识别流(步态流)组成。在推理的高计算效率中丢弃的步态流充当调节器,以鼓励在训练期间捕获捕获布不变的生物识别运动特征。为了从单个图像获取时间连续运动提示,我们设计用于步态流的步态序列预测(GSP)模块,以丰富步态信息。最后,为有效的知识正则化强制执行两个流的高级语义一致性。基于多种图像的布更换Reid基准测试的实验,例如LTCC,PRCC,Real28和VC衣服,证明了GI-REID对最先进的人来说。代码在https://github.com/jinx-ustc/gi -reid提供。
translated by 谷歌翻译